iT邦幫忙

2023 iThome 鐵人賽

DAY 19
0

半監督學習(Semi-supervised learning)

處理的訓練資料中有答案的資料和沒有答案的資料,半監督學習就是利用兩者的資料,來改善模型性能

  • Labelled Data
    是已知答案或標籤的資料
  • Unlabelled Data
    是沒有答案或標籤的資料

半監督學習方法

自我訓練( Self-training ):

依賴模型的預測能力
會先使用標記資料訓練一個基本模型
然後用模型對未標記資料進行預測
預測結果視為偽標籤( pseudo-labels )

僞標籤( Pseudo Label )
對未標記資料的臨時標籤或估計標籤

最後把有偽標籤的未標記資料加到訓練集並重複訓練
重複多次,每次都更新模型和偽標籤
直到滿意水平或達到設定的次數

半監督支持向量機( Semi-supervised Support Vector Machine ):

是支持向量機( SVM )的一個變種
用未標記資料來擴展模型
傳統的 SVM 解決二元分類問題
而半監督 SVM 利用未標記資料的分佈
用在多類別分類和迴歸等任務
未標記資料視為支持向量機優化過程中的軟標籤

軟標籤( Soft Label )
將概率分佈或連續值分數作為標籤
而不是硬標籤(例如 0 或 1 的二元標籤)

最後根據未標記資料的置信度進行加權

置信度( Confidence )
對事件和情況的信心程度

潛在變數模型( Latent Variable Models ):

是一類統計模型
假設未標記資料中存在潛在結構
並試著在潛在變數的空間中學習資料分布

主動學習( Active Learning ):

模型根據不確定性選擇要請求標記的樣本

不確定性選擇(Uncertainty Sampling)
用於選擇哪些樣本應該被請求標記
最大程度改善模型性能

選擇那些可以最大程度地提高模型性能的樣本
可以最大地減少需要標記的樣本數量

優缺點

優點

  • 利用未標記資料,提供更多資訊
  • 減少了需要標記資料的成本
  • 改進模型泛化性能
  • 應對缺少標記資料問題

缺點

  • 未標記資料品質可能不高,而導致噪聲
  • 偽標籤問題,依賴初始模型
  • 類別不平衡不好處理

上一篇
探索神經~神經元與神經網路
下一篇
旅行中~強化學習
系列文
機器學習新手行,相信你也行!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言